句子完成(SC)问题提出了一个或多个需要填写的空白,三到五个可能的单词或短语作为选项。SC问题被广泛用于学习英语作为第二语言(ESL)的学生。在本文中,我们提出了一个大规模的SC数据集,\ textsc {sc-ques},该数据由292,517 ESL SC的问题组成,来自现实世界中标准化英语考试。此外,我们通过在提出的\ textsc {sc-ques}数据集上训练大规模的预训练语言模型来自动解决SC问题的全面基准。我们对基线模型的性能,限制和权衡进行详细分析。数据和我们的代码可用于研究目的:\ url {https://github.com/ai4ed/sc-ques}。
translated by 谷歌翻译
在线对话说明是在现实世界在线教育环境中使用的一系列教学说明,以激励学生,帮助了解学习材料并建立有效的学习习惯。尽管在线学习的受欢迎程度和优势,但教育技术和教育数据挖掘社区仍然缺乏缺乏大规模,高质量和良好的教学教学指导数据集来研究计算方法,以自动检测在线对话说明并进一步提高在线教学效果。因此,在本文中,我们提供了一个在线对话说明检测的数据集\ textsc {dialogId},其中包含30,431个有效的对话说明。这些教学说明很好地注释分为8个类别。此外,我们还利用了普遍的预训练的语言模型(PLM),并提出一个简单而有效的对抗训练学习范式来提高对话指导检测的质量和概括。广泛的实验表明,我们的方法的表现优于多种基线方法。数据和我们的代码可用于研究目的:\ url {https://github.com/ai4ed/dialogid}。
translated by 谷歌翻译
我们提出了一种简单但有效的方法,建议为学生提供高质量和多样性的练习。我们的方法由三个关键组成部分组成:(1)候选生成模块;(2)促进多样性的模块;(3)范围限制模块。提出的方法在召回方面提高了总体建议性能,与基线相比,推荐候选者的多样性增加了0.81 \%。
translated by 谷歌翻译
知识跟踪(KT)是使用学生的历史学习互动数据来对其知识掌握的任务,以便对他们未来的互动绩效进行预测。最近,使用各种深度学习技术来解决KT问题已经取得了显着的进步。但是,基于深度学习的知识追踪(DLKT)方法的成功仍然有些神秘,适当的测量以及对这些DLKT方法的分析仍然是一个挑战。首先,现有作品中的数据预处理程序通常是私人和/或自定义,这限制了实验标准化。此外,现有的DLKT研究通常在评估方案方面有所不同,并且是现实世界中的教育环境。为了解决这些问题,我们介绍了一个综合基于Python的基准平台\ TextSc {Pykt},以确保通过彻底评估进行跨DLKT方法的有效比较。 \ textsc {pykt}库由不同域的7个流行数据集上的一组标准化的数据预处理程序组成,而10个经常比较了用于透明实验的DLKT模型实现。我们细粒度和严格的经验KT研究的结果产生了一系列观察结果和有效DLKT的建议,例如,错误的评估设置可能会导致标签泄漏,这通常会导致性能膨胀;与Piech等人提出的第一个DLKT模型相比,许多DLKT方法的改进是最小的。 \ cite {piech2015 -Deep}。我们已经开源\ textsc {pykt},并在\ url {https://pykt.org/}上进行了实验结果。我们欢迎其他研究小组和从业人员的贡献。
translated by 谷歌翻译
代表学习方法需要大量的歧视性培训数据,这在许多情况下都不可用,例如医疗保健,智能城市,教育等。在实践中,人们指的是众包以获得注释标签。但是,由于数据隐私,预算限制,域特定注释缺少的问题,众群标签的数量仍然非常有限。此外,由于注释者的多样化专业知识,众群标签往往不一致。因此,直接应用现有的监督表示学习(SRL)算法可能很容易得到过度的问题并产生次优解决方案。在本文中,我们提出了\ {neucrowd},从众包标签中获得SRL的统一框架。所提出的框架(1)通过利用安全感感知的采样和强大的锚生成,创建足够数量的高质量\ EMPH {n} -Tuplet训练样本; (2)自动学习一个神经采样网络,可自适应地学习为SRL网络选择有效的样本。所提出的框架是在一个合成和三个现实世界数据集上进行评估的。结果表明,我们的方法在预测准确性和AUC方面优于各种最先进的基线。为了鼓励可重复的结果,我们将公开可用的代码在\ url {https://github.com/tal-ai/necrowd_kais2021}。
translated by 谷歌翻译
Spiking Neural Networks (SNNs) have been studied over decades to incorporate their biological plausibility and leverage their promising energy efficiency. Throughout existing SNNs, the leaky integrate-and-fire (LIF) model is commonly adopted to formulate the spiking neuron and evolves into numerous variants with different biological features. However, most LIF-based neurons support only single biological feature in different neuronal behaviors, limiting their expressiveness and neuronal dynamic diversity. In this paper, we propose GLIF, a unified spiking neuron, to fuse different bio-features in different neuronal behaviors, enlarging the representation space of spiking neurons. In GLIF, gating factors, which are exploited to determine the proportion of the fused bio-features, are learnable during training. Combining all learnable membrane-related parameters, our method can make spiking neurons different and constantly changing, thus increasing the heterogeneity and adaptivity of spiking neurons. Extensive experiments on a variety of datasets demonstrate that our method obtains superior performance compared with other SNNs by simply changing their neuronal formulations to GLIF. In particular, we train a spiking ResNet-19 with GLIF and achieve $77.35\%$ top-1 accuracy with six time steps on CIFAR-100, which has advanced the state-of-the-art. Codes are available at \url{https://github.com/Ikarosy/Gated-LIF}.
translated by 谷歌翻译
在许多应用程序中,多方拥有有关相同用户的私人数据,但在属性的脱节集上,服务器希望利用数据来训练模型。为了在保护数据主体的隐私时启用模型学习,我们需要垂直联合学习(VFL)技术,其中数据派对仅共享用于培训模型的信息,而不是私人数据。但是,确保共享信息在学习准确的模型的同时保持隐私是一项挑战。据我们所知,本文提出的算法是第一个实用的解决方案,用于差异化垂直联合K-均值聚类,服务器可以在其中获得具有可证明的差异隐私保证的全球中心。我们的算法假设一个不受信任的中央服务器,该服务器汇总了本地数据派对的差异私有本地中心和成员资格编码。它基于收到的信息构建加权网格作为全局数据集的概要。最终中心是通过在加权网格上运行任何K-均值算法而产生的。我们的网格重量估计方法采用了基于Flajolet-Martin草图的新颖,轻巧和差异私有的相交基数估计算法。为了提高两个以上数据方的设置中的估计准确性,我们进一步提出了权重估计算法的精致版本和参数调整策略,以减少最终的K-均值实用程序,以便在中央私人环境中接近它。我们为由我们的算法计算的群集中心提供了理论实用性分析和实验评估结果,并表明我们的方法在理论上和经验上都比基于现有技术的两个基准在理论上和经验上的表现更好。
translated by 谷歌翻译
文档级关系提取(RE)旨在确定整个文档中实体之间的关系。它需要复杂的推理能力来综合各种知识,例如核心和常识。大规模知识图(kgs)包含大量现实世界事实,并可以为文档级别提供宝贵的知识。在本文中,我们提出了一个实体知识注入框架,以增强当前的文档级RE模型。具体而言,我们将核心蒸馏引入注入核心知识,并具有更一般的核心推理能力。我们还采用代表对帐来注入事实知识,并将kg表示形式汇总到统一空间中。两个基准数据集的实验验证了我们实体知识注入框架的概括,并对多个文档级RE模型的一致改进。
translated by 谷歌翻译
作为当今最受欢迎的机器学习模型之一,Graph神经网络(GNN)最近引起了激烈的兴趣,其解释性也引起了人们的兴趣。用户对更好地了解GNN模型及其结果越来越感兴趣。不幸的是,当今的GNN评估框架通常依赖于合成数据集,从而得出有限范围的结论,因为问题实例缺乏复杂性。由于GNN模型被部署到更关键的任务应用程序中,因此我们迫切需要使用GNN解释性方法的共同评估协议。在本文中,据我们最大的知识,我们提出了针对GNN解释性的第一个系统评估框架,考虑了三种不同的“用户需求”的解释性:解释焦点,掩盖性质和掩蔽转换。我们提出了一个独特的指标,该指标将忠诚度措施结合在一起,并根据其足够或必要的质量对解释进行分类。我们将自己范围用于节点分类任务,并比较GNN的输入级解释性领域中最具代表性的技术。对于广泛使用的合成基准测试,令人惊讶的是,诸如个性化Pagerank之类的浅水技术在最小计算时间内具有最佳性能。但是,当图形结构更加复杂并且节点具有有意义的特征时,根据我们的评估标准,基于梯度的方法,尤其是显着性。但是,没有人在所有评估维度上占主导地位,而且总会有一个权衡。我们在eBay图上的案例研究中进一步应用了我们的评估协议,以反映生产环境。
translated by 谷歌翻译
近年来,许多定量金融领域的从业者试图使用深度强化学习(DRL)来建立更好的定量交易(QT)策略。然而,许多现有研究未能应对几个严重的挑战,例如非平稳财务环境以及在实际金融市场应用DRL时的偏见和差异权衡。在这项工作中,我们提出了Safe-Finrl,这是一种基于DRL的新型高FREQ股票交易策略,该策略通过近部财务环境以及低偏差和差异估算而增强。我们的主要贡献是双重的:首先,我们将漫长的财务时间序列分为近乎固定的短期环境;其次,我们通过将一般反探测器纳入软批评者中,在近部财务环境中实施Trace-SAC。对加密货币市场的广泛实验表明,避风势范围提供了稳定的价值估计,并稳定的政策改善,并在近部财务环境中显着降低了偏见和差异。
translated by 谷歌翻译